КЛАСТЕРНЫЙ АНАЛИЗ


КЛАСТЕРНЫЙ АНАЛИЗ
– математическая процедура многомерного анализа, позволяющая на основе множества показателей, характеризующих ряд объектов (напр., испытуемых), сгруппировать их в классы (кластеры) т. о., чтобы объекты, входящие в один класс, были более однородными, сходными по сравнению с объектами, входящими в др. классы. На основе численно выраженных параметров объектов вычисляются расстояния между ними, которые могут выражаться как в евклидовой метрике, так и в др. метриках. Метод К. а. м. б. достаточно эффективным в изучении конфликтов. Конфликты – слишком сложное явление для того, чтобы исследовать их, не упрощая. Группировка конфликтов в кластеры (напр., конфликты между начальником и подчиненным, в которых победу одержал подчиненный) дает возможность получить информацию, которую с помощью др. процедуры добыть затруднительно.


* * *
- математический метод определения глубинной структуры, близкий факторному анализу. Оба упомянутых метода включают поиск унитарных элементов (факторов, кластеров), которые объясняют вариативность получаемых данных. Иными словами, кластерный анализ позволяет различать группы объектов, явлений, имеющих относительные различия с другими группами с тем, чтобы изучать далее характеристики объектов внутри группы. Наиболее распространён метод иерархического кластерирования, он может “работать” и с “нижней”, и с “верхней” группами. В аггломеративном иерархическом кластерировании (то есть работающего «снизу») процесс начинается со многих кластеров (лат. agglomeratus - присоединённый; накопленный).


* * *

математическая процедура многомерного анализа, позволяющая на основе множества показателей, характеризующих ряд объектов (например испытуемых), сгруппировать их в классы (кластеры) таким образом, чтобы объекты, входящие в один класс, были более однородными, сходными по сравнению с объектами, входящими в другие классы. На основе численно выраженных параметров объектов вычисляются расстояние между ними, которые могут выражаться как в эвклидовой метрике (наиболее употребимой), так и в других метриках.


* * *
метод группировки экспериментальных данных в классы таксоны), построенные таким образом, что наблюдения, попавшие в один класс, в некотором смысле становятся ближе друг к другу, чем к наблюдениям из других классов. Предпочтительный тип процедуры К. а. существенно зависит от числа наблюдений. Для малых выборок (не более сотни наблюдений) используются иерархические и параллельные процедуры. Принцип работы иерархических процедур состоит в последовательном объединении (разделении) наблюдений сначала самых близких (далеких), а затем все более отдаленных друг от друга (приближенных). Наиболее часто встречаемый алгоритм иерархической процедуры — алгоритм «ближайшего соседа». Он применяется к матрице расстояний между наблюдениями и на первом шаге объединяет два самых близких наблюдения. После этого матрица расстояний пересчитывается с учетом предположения, что объединенная пара — единый кластер. Следующий такой же шаг применяется к новой матрице. алгоритма формально кончается, когда все исходные наблюдения объединяются в кластер. Реальный останов алгоритма следует сделать либо когда число кластеров окажется равным наперед заданному, либо когда все элементы матрицы окажутся превышающими заданный порог (если число кластеров заранее не известно). Параллельные процедуры предусматривают одновременный обсчет всех наблюдений на каждом шагу алгоритма. Напр., рассматриваются наблюдения подлежащие разбиению на неизвестное число классов. Для произвольного наблюдения отбираются наблюдения, находящиеся от него на расстоянии, не превышающем пороговое. Находится среднее число наблюдений (центр кластера), попавших в выделенное множество. Снова отбираются наблюдения, отстоящие от центра не далее чем на пороговое значение. Процедура повторяется до тех пор, пока центр не перестанет сдвигаться. Для точек, не вошедших в выделенный кластер, алгоритм повторяется. Если число группируемых наблюдений велико (от нескольких сотен и более), применяют последовательные процедуры. Напр., случайным образом выбирается наблюдение, объявляемое центром первого кластера. Другая точка относится к если ее расстояние от центра меньше порогового, в противном случае она объявляется центром кластера На n-м шаге, когда уже имеется кластеров, новая точка становится центром кластера или относится к одному из классов ..., Трудности применения К. а. связаны с недостаточной разработанностью критериев эффективности и допустимости кластерных процедур. Известен ряд примеров, когда применение соответствующих алгоритмов К. а. не приводит к получению устойчивой структуры экспериментальных данных. Поэтому обычно К. а. применяется в совокупности с другими методами (в частности, с факторным анализом, контролируя адекватность полученных им структур). В инженерной психологии, психологии труда и управления К. а. применяется во всех тех случаях, когда необходима оптимальная группировка объектов, оцениваемых многопараметрически (испытуемых, стимулов, шкал и т. д.). Такая задача встречается, напр., при решении некоторых вопросов профессионального отбора.


Энциклопедический словарь по психологии и педагогике. 2013.